估计漫画图像的深度是具有挑战性的,因为此类图像a)是单眼的。b)缺乏地面深度注释;c)不同艺术风格的不同;d)稀疏而嘈杂。因此,我们使用现成的无监督图像来图像翻译方法将漫画图像转换为自然图像,然后使用注意引导的单眼深度估计器来预测其深度。这使我们能够利用现有自然图像的深度注释来训练深度估计器。此外,我们的模型学会了区分漫画面板中的文本和图像,以减少深度估计中基于文本的人工制品。我们的方法始终优于DCM和EBDTheque图像上所有指标的现有最新方法。最后,我们介绍了一个数据集来评估漫画的深度预测。可以通过https://github.com/ivrl/comicsdepth访问我们的项目网站。
translated by 谷歌翻译
In this paper we address the solution of the popular Wordle puzzle, using new reinforcement learning methods, which apply more generally to adaptive control of dynamic systems and to classes of Partially Observable Markov Decision Process (POMDP) problems. These methods are based on approximation in value space and the rollout approach, admit a straightforward implementation, and provide improved performance over various heuristic approaches. For the Wordle puzzle, they yield on-line solution strategies that are very close to optimal at relatively modest computational cost. Our methods are viable for more complex versions of Wordle and related search problems, for which an optimal strategy would be impossible to compute. They are also applicable to a wide range of adaptive sequential decision problems that involve an unknown or frequently changing environment whose parameters are estimated on-line.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
孟加拉国手语(BDSL)与其他标志语言一样 - 对于普通人来说很难学习,尤其是在表达信件时。在这张海报中,我们提出了Persign,该系统可以通过引入标志手势来重现人的形象。我们使此操作个性化,这意味着生成的图像可以保持人的初始图像轮廓 - 脸部,肤色,服装,背景 - 不变,同时适当地改变了手,手掌和手指位置。我们使用图像到图像翻译技术并构建相应的唯一数据集来完成任务。我们认为,翻译的图像可以减少签名者(使用手语的人)和非签名者之间的沟通差距,而无需事先了解BDSL。
translated by 谷歌翻译
转移学习是一种深入学习技术,可以改善当人类通知标签昂贵且有限时学习的问题。代替此类标签,它使用先前训练的源模型的权重作为训练新目标数据集的基本模型的初始权重。我们演示了一种新颖但一般的技术,用于自动创建此类源模型。我们根据高尺寸的几何形状(Cayley-Menger-Menger的决定因素)基于经典结果的有效且可扩展的算法生成伪标记。这种G2L(``标签的几何图形'')方法通过使用HyperVolume含量的贪婪计算来逐步构建伪标记。我们证明了该方法相对于预期准确性是可调节的,可以通过源和目标之间的数据集相似性(差异)的信息理论度量来预测。 280个实验的结果表明,这种机械技术生成的基本模型与在广泛的人类注销的Imagenet1k标签上训练的模型的基线相比具有相似或更好的可传递性,从而产生了0.43 \%的总体误差降低,而4个误差降低了4%,4个误差降低。在5个发散数据集中测试。
translated by 谷歌翻译
我们开发了数据驱动的模型,以预测机器人在社交就餐场景中何时应进食。能够与朋友和家人独立饮食被认为是具有行动不便的人的最令人难忘,最重要的活动之一。机器人可以潜在地帮助这项活动,但是由机器人辅助的喂养是一个多方面的问题,在咬合,咬合时机和咬合转移方面面临挑战。特别是在社交就餐场景中,特别是由于在社交用餐场景中变得唯一挑战性,因为可能会中断社交人类机器人群体的互动。我们的关键见解是,考虑到社交线索的微妙平衡的咬合时序策略可能会导致在社交用餐场景中在机器人辅助喂养过程中进行无缝互动。我们通过收集一个包含30组三人共同饮食的多模式人类尊贵数据集(HHCD)来解决这个问题。我们使用此数据集分析人类人类的赋形行为,并在社交用餐场景中开发咬合时正时预测模型。我们还将这些模型转移到人类机器人的态度方案中。我们的用户研究表明,当我们的算法使用食客之间的多模式社交信号线索来建模时,预测会有所改善。 HHCD数据集,用户研究的视频和代码将在接受后公开发布。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
有关后门毒物攻击的广泛文献研究了使用“数字触发图案”的后门攻击和防御措施。相比之下,“物理后门”使用物理对象作为触发器,直到最近才被确定,并且在质量上足够不同,可以抵抗针对数字触发后门的所有防御。对物理后门的研究受到了访问大型数据集的限制,该数据集包含包含与分类目标共同位置的物理对象的真实图像。构建这些数据集是时间和劳动力密集的。这项工作旨在应对有关物理后门攻击研究的可访问性挑战。我们假设在流行数据集(例如Imagenet)中可能存在天然存在的物理共同存在的对象。一旦确定,这些数据的仔细重新标记可以将它们转化为训练样本,以进行物理后门攻击。我们提出了一种方法,可以通过在现有数据集中识别这些潜在触发器的这些亚集,以及它们可能毒害的特定类别。我们称这些天然存在的触发级子集自然后门数据集。我们的技术成功地识别了广泛可用的数据集中的自然后门,并在行为上等同于在手动策划数据集中训练的模型。我们发布我们的代码,以使研究社区可以创建自己的数据集,以研究物理后门攻击。
translated by 谷歌翻译
由于其异步,稀疏和二进制信息处理,尖峰神经网络(SNN)最近成为人工神经网络(ANN)的低功耗替代品。为了提高能源效率和吞吐量,可以在使用新兴的非挥发性(NVM)设备在模拟域中实现多重和蓄积(MAC)操作的回忆横梁上实现SNN。尽管SNN与回忆性横梁具有兼容性,但很少关注固有的横杆非理想性和随机性对SNN的性能的影响。在本文中,我们对SNN在非理想横杆上的鲁棒性进行了全面分析。我们检查通过学习算法训练的SNN,例如,替代梯度和ANN-SNN转换。我们的结果表明,跨多个时间阶段的重复横梁计算会导致错误积累,从而导致SNN推断期间的性能下降。我们进一步表明,经过较少时间步长培训的SNN在部署在磁带横梁上时可以更好地准确。
translated by 谷歌翻译
Spiking Neural Networks (SNNs) have gained huge attention as a potential energy-efficient alternative to conventional Artificial Neural Networks (ANNs) due to their inherent high-sparsity activation. Recently, SNNs with backpropagation through time (BPTT) have achieved a higher accuracy result on image recognition tasks than other SNN training algorithms. Despite the success from the algorithm perspective, prior works neglect the evaluation of the hardware energy overheads of BPTT due to the lack of a hardware evaluation platform for this SNN training algorithm. Moreover, although SNNs have long been seen as an energy-efficient counterpart of ANNs, a quantitative comparison between the training cost of SNNs and ANNs is missing. To address the aforementioned issues, in this work, we introduce SATA (Sparsity-Aware Training Accelerator), a BPTT-based training accelerator for SNNs. The proposed SATA provides a simple and re-configurable systolic-based accelerator architecture, which makes it easy to analyze the training energy for BPTT-based SNN training algorithms. By utilizing the sparsity, SATA increases its computation energy efficiency by $5.58 \times$ compared to the one without using sparsity. Based on SATA, we show quantitative analyses of the energy efficiency of SNN training and compare the training cost of SNNs and ANNs. The results show that, on Eyeriss-like systolic-based architecture, SNNs consume $1.27\times$ more total energy with sparsities when compared to ANNs. We find that such high training energy cost is from time-repetitive convolution operations and data movements during backpropagation. Moreover, to propel the future SNN training algorithm design, we provide several observations on energy efficiency for different SNN-specific training parameters and propose an energy estimation framework for SNN training. Code for our framework is made publicly available.
translated by 谷歌翻译